#! /usr/bin/env python
# -*- coding: utf-8 -*-

import char,sys
from bs4 import BeautifulSoup

#用于分析页面信息
class pageany:
	soup=None
	html_doc=''
	def __init__(self,html_doc,doctype='lxml'):
		self.html_doc=html_doc
		try:
			self.soup=BeautifulSoup(html_doc,doctype)
		except:
			self.soup=None

	#获得页面所有A标签，以列表形式返回
	def GetUrlList(self):
		try:
			return self.soup.find_all('a')
		except:
			return None

	#获得页面标题
	def GetTitle(self):
		try:
			return self.soup.title.string
		except:
			return None

#用于分析head请求，传入HEAD请求所爬取下来的
#字典，然后进行分析
class headany:
	head_doc=''
	def __init__(self,head_doc):
		self.head_doc=head_doc
	#获得HEAD请求中的文件类型
	def GetType(self):
		try:
			return self.head_doc['Content-Type']
		except:
			return None